![]() System und Verfahren zum Identifizieren eines speziellen Wortgebrauchs in einem Dokument
专利摘要:
EinVerfahren zum Identifizieren eines potentiellen neuartigen Wortgebrauchsin einem Dokument weist ein Bestimmen einer Sprachteilzuweisungfür jedesWort in dem Dokument unter Verwendung einer ersten Sprachteilkennzeichnung,ein Bestimmen einer Sprachteilzuweisung für jedes Wort in dem Dokumentunter Verwendung einer zweiten Sprachteilkennzeichnung, die sichvon der ersten Sprachteilkennzeichnung unterscheidet, und ein Vergleichender Sprachteilzuweisung der ersten und zweiten Sprachteilkennzeichnungauf. Das Verfahren erzeugt dann einen Differentialwortsatz, derWörtermit einer unterschiedlichen Sprachteilzuweisung durch die ersteund zweite Sprachteilkennzeichnung aufweist. Die Wörter indem Differentialwortsatz sind Kandidaten für Wörter eines neuartigen Gebrauchs. 公开号:DE102004003878A1 申请号:DE102004003878 申请日:2004-01-26 公开日:2004-12-23 发明作者:Steven J. Fort Collins Simske 申请人:Hewlett Packard Development Co LP; IPC主号:G06F17-27
专利说明:
[0001] Dievorliegende Erfindung bezieht sich allgemein auf das Gebiet derComputer und insbesondere auf ein System und ein Verfahren zum Identifiziereneines speziellen Wortgebrauchs in einem Dokument. [0002] Dieauf dem Internet und dem World Wide Web aufgebaute Informationsautobahnhat eine Flut von elektronischen Daten auf jedermanns Computer gebracht.Die großenDatenvolumen machen es schwierig, den Inhalt der Daten angemessenzu verarbeiten, zu verstehen und zu nutzen. Als einer der ersten, üblicherweiseverwendeten Schritte, um Dokumente zu verarbeiten, wurden bislangSprachteil-(POS)-Kennzeichnungenverwendet, um Text mit den grammatikalischen oder syntaktischenSprachteilen zu kennzeichnen oder zu markieren. Da ein Wort in Abhängigkeitvon dem Kontext unterschiedliche Bedeutungen haben kann, verbessertdas POS-Kennzeichnen das Verständnisdes Texts erheblich. Das POS-Kennzeichnen ermöglicht auch natürliche Sprachverarbeitungsaufgaben,so daß Datenzusammengefaßt,kategorisiert und auf andere Weise auf eine Funktion in irgendeinerForm angewendet werden können. [0003] Spracheist jedoch dynamisch und Wörterkönnenin/fürbestimmte Abschnitte der Bevölkerungneue Bedeutungen annehmen. Zum Beispiel können sich bestimmte Wörter oderderen Gebrauch in bestimmten geographischen Regionen oder kulturellen/ethnischenGruppen entwickeln. Als weiteres Beispiel sei genannt, daß bestimmteMenschengruppen wie z. B. eine wissenschaftliche, technische, rechtlicheoder andere berufliche Gemeinschaft u. U. eine neue Bedeutung für bekannteWörterprägenoder neue Wörterund neue Wortkombinationen erschaffen. Es ist daher erwünscht, einen derartigenspeziellen oder neuartigen Wortgebrauch zu erkennen und zu identifizieren,so daß einbesseres Textverständniserreicht werden kann. [0004] Esist die Aufgabe der vorliegenden Erfindung, ein Verfahren und einSystem zum Identifizieren eines potentiellen neuartigen Wortgebrauchsin einem Dokument bzw. einem Dokumentensatz und einen computerlesbarenArtikel, der mit einem computerausführbaren Prozeß codiertist, mit verbesserten Charakteristika zu schaffen. [0005] DieseAufgabe wird durch ein Verfahren gemäß Anspruch 1, ein System gemäß Anspruch18 sowie einen computerlesbaren Artikel gemäß Anspruch 9 gelöst. [0006] Gemäß einemAusführungsbeispielder vorliegenden Erfindung weist ein Verfahren zum Identifizieren einespotentiellen neuartigen Wortgebrauchs in einem Dokument ein Bestimmeneiner Sprachteilzuweisung fürjedes Wort in dem Dokument unter Verwendung einer ersten Sprachteilkennzeichnung,ein Bestimmen einer Sprachteilzuweisung für jedes Wort in dem Dokumentunter Verwendung einer zweiten Sprachteilkennzeichnung, die sichvon der ersten Sprachteilkennzeichnung unterscheidet, und ein Vergleichender Sprachteilzuweisung der ersten und zweiten Sprachteilkennzeichnungauf. Das Verfahren erzeugt einen Differentialwortsatz, der Wörter miteiner unterschiedlichen Sprachteilzuweisung durch die erste undzweite Sprachteilkennzeichnung aufweist. Die Wörter in dem Differentialwortsatzsind Kandidaten fürWörtereines neuartigen Gebrauchs. [0007] Gemäß einemweiteren Ausführungsbeispielder Erfindung weist ein computerlesbarer Artikel, der mit einemcomputerausführbarenProzeß codiertist, ein Zuweisen einer ersten Sprachteilkennung bzw. eines erstenSprachteiletiketts zu Wörternin einer Mehrzahl von Dokumenten gemäß einem ersten Sprachteilkennzeichnungs-bzw. -etikettierungsverfahren, Zuweisen einer zweiten Sprachteilkennungfür Wörter inder Mehrzahl von Dokumenten gemäß einemzweiten Sprachteilkennzeichnungsverfahren, das vereinfachender als daserste Sprachteilkennzeichnungsverfahren ist, und Vergleichen derersten und zweiten Sprachteilkennung auf. Der Prozeß weistferner ein Erzeugen eines Differentialwortsatzes auf, der Wörter mitunterschiedlicher erster und zweiter Sprachteilkennung aufweist. [0008] Gemäß noch einemweiteren Ausführungsbeispielder vorliegenden Erfindung weist ein System zum Identifizieren einesneuartigen Wortgebrauchs in einem Dokumentensatz einen Mikroprozessorund eine Reihe von Computerbefehlen, die ein Verfahren aufweisen,auf. Das Verfahren weist ein Zuweisen einer ersten Sprachteilkennungzu Wörternin einer Mehrzahl von Dokumenten gemäß einem ersten Sprachteilkennzeichnungsverfahren,Zuweisen einer zweiten Sprachteilkennung für Wörter in der Mehrzahl von Dokumentengemäß einemzweiten Sprachteilkennzeichnungsverfahren, das vereinfachender alsdas erste Sprachteilkennzeichnungsverfahren ist, Vergleichen derersten und zweiten Sprachteilkennung und Erzeugen eines Differentialwortsatzes,der Wörtermit unterschiedlicher erster und zweiter Sprachteilkennung aufweist,auf. [0009] BevorzugteAusführungsbeispieleder vorliegenden Erfindung werden nachfolgend Bezug nehmend aufdie beiliegenden Zeichnungen nähererläutert,wobei gleiche Bezugszeichen verwendet werden, um gleiche und entsprechendeTeile der verschiedenen Zeichnungen zu beschreiben. Es zeigen [0010] 1 ein Flußdiagrammeines Ausführungsbeispielseines Verfahrens zum Identifizieren eines speziellen Wortgebrauchsin einem Dokument gemäß der vorliegendenErfindung; [0011] 2 ein Flußdiagrammeines Ausführungsbeispielseines Verfahrens zum Bestimmen der Wortgewichtung gemäß der vorliegendenErfindung; und [0012] 3 ein Blockdiagramm einesSystemausführungsbeispielszum Identifizieren eines speziellen Wortgebrauchs gemäß der vorliegendenErfindung. [0013] 1 ist ein Flußdiagrammeines Ausführungsbeispielseines Verfahrens 10 zum Identifizieren eines speziellenWortgebrauchs in einem Dokument gemäß der vorliegenden Erfindung.Das Verfahren 10 kann auf verschiedenste Weise eingeleitetoder verwendet werden. Zum Beispiel kann das Verfahren 10 durcheine andere Computeranwendung wie z. B. ein Textverarbeitungsprogramm,einen Browser, eine Datenbankbenutzerschnittstelle, Suchmaschineetc. automatisch aufgerufen werden. Ein Benutzer kann das Verfahren 10 auch manuelleinleiten. Bei Block 12 wird der Dokumentensatz, der eineMehrzahl von Textdokumenten enthält,dem Verfahren 10 als Eingabe bereitgestellt. Eventuellsind noch ein oder mehrere vorbereitende Schritte durchzuführen. Wenndas Dokument auf Papier basiert ist, werden eventuell optische Zeichenerkennungs-(OCR)-Anwendungenverwendet, um das auf Papier basierte Dokument zu scannen und inein elektronisches Dokument umzuwandeln. Andere Anwendungen oderTools könnenverwendet werden, um den Text von Nicht-Text-Abschnitten des Dokuments zu trennenund jedes erkennbare Wort in einer Datenstruktur wie z. B. einemArray weiter zu indexieren oder zu speichern. Wenn der Dokumentensatzeine Website ist, dann kann die Eingabe bei Block 12 dieUniversal Resource Locator (URL) der Website aufweisen. Wenn derDokumentensatz in einem Ordner oder Verzeichnis gespeichert ist,dann umfaßtdie Eingabe eventuell den Pfad zu dem Verzeichnis oder Ordner. Wennder Dokumentensatz Dokumente enthält, die in irgendeiner Weisegeordnet sind, wie z. B. Nachrichten, die im Laufe der Zeit aufein Nachrichtenbrett (oder „blog") geheftet werden,dann wird ein derartiges aufeinanderfolgendes Ordnen der Dokumenteoder darauf bezogene Informationen ebenfalls als Eingabe bereitgestellt. [0014] Beiden Blöcken 14 und 16 werdenzwei unterschiedliche Sprachteil-(POS)-Kennzeichnungen verwendet,um jedes Dokument in dem Dokumentensatz zu analysieren, um einenersten und zweiten Kennungssatz für jedes Dokument zu erzeugen.Die erste POS-Kennzeichnung ist eine Kennzeichnung wie z. B. einetransformationelle regelbasierte Brill-POS-Kennzeichnung, die auf Eric Brill zurückgeht,oder eine ihrer Variationen. Um die Genauigkeit der ersten Kennzeichnungzu erhöhen,kann eine Kombination aus zwei oder mehr gründlichen und genauen POS-Kennzeichnungenverwendet werden. Der POS-Kennungssatz, der bei der Brill-POS-Kennzeichnung verwendetwird, ist der in TABELLE A gezeigte POS-Kennungssatz der University ofPennsylvania Treebank: [0015] Derin TABELLE A gezeigte Kennungssatz ist ein sehr gründlicherSatz aus grammatikalischen Kennungen, der z. B. zwischen unterschiedlichenVerb- und Nomengebräuchenunterscheidet. [0016] Eineeinfache oder partielle Kennzeichnung, wie z. B. die bei Block 16 verwendetezweite Kennzeichnung, unterscheidet eventuell z. B. nicht zwischenden verschiedenen Verbformen. Ein Beispiel für eine partielle POS-Kennzeichnungist eine auf einem Korpus basierte Kennzeichnung, die eine Datenbankoder ein Korpus aus gesammeltem geschriebenen und/oder gesprochenenText ist, der bereits grammatikalisch gekennzeichnet wurde. EinBeispiel füreine derartige statistische Datenbank ist Word Frequencies in Writtenand Spoken English: auf der Basis des British National Corpus vonLeech, Geoffrey u. a. (2001). Der British National Corpus (BNC)ist eine elektronische Datenbank mit 100.000.000 Wörtern, dieauf dem heute gesprochenen und geschriebenen Englisch basiert. Dasich der Kennungssatz, der durch die partielle POS-Kennzeichnung verwendetwird, wahrscheinlich von dem Kennungssatz, der in der voll ausgebildetenPOS-Kennzeichnung verwendet wird, unterscheidet, müssen bestimmteKennungen eventuell erweitert werden. Alternativ kann ein Korpus,das den gleichen Kennungssatz wie die erste POS-Kennzeichnung verwendet,für diezweite POS-Kennzeichnung verwendet werden. [0017] BeiBlock 18 werden die gekennzeichneten Ergebnisse von dervoll ausgebildeten POS-Kennzeichnung (Block 14) und diegekennzeichneten Ergebnisse von der partiellen POS-Kennzeichnung (Block 16)verglichen, um einen Differentialwortsatz zu bestimmen, der Wörter enthält, diedurch die beiden POS-Kennzeichnungen unterschiedlich gekennzeichnetwurden. So wird z. B. der Satz „Bob might race to win" eventuell auf dieseWeise durch die beiden POS-Kennzeichnungengekennzeichnet: [0018] NNPsteht fürsingularischer Eigenname, MD fürModalwort, VB fürVerb in der Grundform, IN fürPräpositionoder unterordnende Konjunktion, NN für singularisches Nomen oderMengenbezeichnung und PREP fürPräposition.Es fälltauf, daß dasWort „race" durch die beidenPOS-Kennzeichnungen unterschiedlich gekennzeichnet wird. Die ersteoder voll ausgebildete POS-Kennzeichnung hat „race" korrekt als Verb gekennzeichnet unddie zweite oder partielle POS-Kennzeichnunghat „race" inkorrekt als Nomengekennzeichnet. Das Wort „race" ist somit in demDifferentialwortsatz enthalten. Der Prozeß erzeugt daher einen Differentialwortsatzoder eine Signatur fürjedes Dokument in dem interessierenden Dokumentensatz. Eine Signaturist ein geordneter Vektor, der die POS-Unterschiede zwischen dervoll ausgebildeten Kennzeichnung und der partiellen oder auf einemKorpus basierten Kennzeichnung hervorhebt. Zum Beispiel kann folgendeseine in XML (erweiterbare Markup-Sprache) ausgedrückte Signaturfür einKorpus sein, in dem neue Slang-Begriffe verwendet werden: [0019] BeiBlock 20 wird eine Gewichtung für jedes Wort in dem Differentialwortsatzjedes Dokuments bestimmt. Allgemein ist die Art und Weise, wie einWort in einem gesamten Dokumentensatz verwendet wird, von Interesse.Wenn z. B. in einem Dokumentensatz festzustellen ist, daß ein bestimmtesWort, „race", in 56,7 % der Fälle alsVerb und in 43,3 der Fälleals Nomen verwendet wird. Diese Prozentsätze unterscheiden sich erheblichvon den feststehenden Gebrauchsstatistiken 6,3 % Verb und 93,7 %Nomen. Bezug nehmend auch auf Block 38 in 2 kann eine Differenzsumme Sd für ein bestimmtesWort in dem Differentialwortsatz wie folgt berechnet werden: Sd = Σi∊POS-Kennungssatz(|%(vollständigePOS – Kennzeichnung) – %(partiellePOS – Kennzeichnung [0020] Für das Wort „race" wäre die Differenzsummesomit: Sd = |56,7 – 6,4| +|43,3 – 93,7|= 100,8 [0021] Allgemeinliegt der Wert fürdie Differenzsumme Sd in einem Bereich von0 bis 200. Daher spiegelt die Differenzsumme die gegenwärtige Gebrauchsabweichungvon dem feststehenden oder erwarteten POS-Gebrauch des Wortes wider. [0022] BeiBlock 40 wird eine Gewichtung auf der Basis der Sprachteilejedes Wortes bestimmt. Zum Beispiel sind Wörter oder Begriffe, die Nomenund Verben sind, in der Regel von Interesse oder wichtiger als Präpositionen.Als solches erhalten Wörter,die als Nomen verwendet werden, unter Umständen eine höhere Gewichtung als Wörter, dieals Präpositionverwendet werden. Daher wird das POS-Kennzeichnen durch die vollausgebildete Kennzeichnung als Basis zum Bestimmen einer POS-basiertenGewichtung, WPOS(voll ausgebildete Kennzeichnung), verwendet. Es gibt mehrereunterschiedliche Wege, die relative Gewichtung zu bestimmen, wiez. B. modifizierter steilster Abfall, Hauptkomponentenanalyse, Stützvektorgeräte und anderegeeignete Ansätze,die heute bekannt sind und späterentwickelt werden. [0023] BeiBlock 42 wird ein Worthäufigkeitsverhältnis bestimmt.Das Worthäufigkeitsverhältnis, FR,ist eine Zahl, zu der man durch Kombinieren einer Anzahl von Variablen,die häufigauf dem Gebiet der Informationswiedergewinnung verwendet werden,darunter Begriffshäufigkeit,TF, inverse Dokumentenhäufigkeit,IDF (inverse document frequency), und inverse (Dokumenten-) Länge, IL,gelangt. Die TF mißtdie Häufigkeit,mit der ein Wort in einem Dokument auftaucht. Die IDF mißt das relativeAuftreten des Wortes überviele Dokumente hinweg und wird in der Regel wie folgt ausgedrückt: IDF = –log2 dfw/D,wobeidfw die Dokumentenhäufigkeit oder die Anzahl vonDokumenten, die das Wort enthalten, und D die Anzahl von Dokumentenin dem Dokumentensatz ist. IL ist die (Länge des Dokuments)–1.Die Gewichtung W kann eine Funktion der obigen Terme sein: W = Sd·WPOS(voll ausgebildete Kennzeichnung)·TF·IL·IDF. [0024] DerAusdruck TF·IL·IDF kannzu einer Variable vereinfacht werden, die als Häufigkeitsverhältnis FR oderVerhältnisdes Auftretens des Begriffs in dem interessierenden Dokumentensatzim Vergleich zu dem gekennzeichneten Korpus bezeichnet wird. DasHäufigkeitsverhältnis istein Konzept, das auch üblicherweiseauf dem Gebiet der Informationswiedergewinnung verwendet wird. Daherwird, mit der Bestimmung des FR bei Block 42, bei Block 44 eineGewichtung W fürdas Wort bestimmt, die wie folgt ausgedrückt werden kann: W= Sd·WPOS(voll ausgebildete Kennzeichnung)·FR. [0025] DerProzeß zumBestimmen einer Gewichtung fürjedes Wort in dem Differentialwortsatz wird für jedes Dokument wiederholtund endet bei Block 46. [0026] Zurückkehrendzu 1 wird die Gewichtungfür jedesWort in dem Differentialwortsatz jedes Dokuments bestimmt, wie beiden Blöcken 14–20 gezeigtist, bis alle Dokumente in dem Dokumentensatz verarbeitet wurden,wie bei Block 22 bestimmt. Eine beispielhafte Ausgabe vondiesem Prozeß,dargestellt in einem XML-Format, ist unten gezeigt: [0027] Beidem obigen Beispiel wurden drei oder mehr Wörter in dem Differentialwortsatzdes Dokumentensatzes identifiziert. Für jedes Wort werden seine durchdie voll ausgebildete POS-Kennzeichnung bestimmte Gewichtung undPOS-Kennung bereitgestellt. [0028] BeiBlock 24 wird ein Teilsatz der Wörter in dem Differentialwortsatzdes Dokumentensatzes ausgewählt.Die ausgewähltenWörtersind von hohem Interesse und sind möglicherweise Slang, Codewörter, Jargon,Wörterdie einen Stil anzeigen, und andere interessierende Begriffe. Eskann eine Anzahl von Kriterien alleine oder in Kombination verwendetwerden, um die Wörtervon hohem Interesse aus dem Differentialwortsatz auszuwählen. ZumBeispiel könnendie Auswahlkriterien ein Auswähleneiner vorbestimmten Anzahl von Wörternmit der höchstenGewichtung, aller Wörtermit einer Gewichtung größer alsoder gleich einem vorbestimmten Gewichtungswert, aller Wörter miteiner Gewichtung größer alsoder gleich einem vorbestimmten Prozentsatz der am höchsten gewichtetenWörterund Kombinationen dieser und anderer geeigneter Kriterien umfassen.Das Ergebnis ist ein Wortsatz von hohem Interesse für den Dokumentensatz. [0029] Beiden Blöcken 26–34 wirdder sich ergebende Wortsatz von hohem Interesse bei einer Anzahlvon unten beschriebenen beispielhaften Anwendungen verwendet, umWörterzu identifizieren, die auf eine spezielle Weise verwendet werden,so daß Dokumente,die diese speziellen Wortgebräucheenthalten, identifiziert und/oder klassifiziert werden können, neueTrends füreinen Wortgebrauch identifiziert und nachverfolgt werden können undein besseres Maschinentextverständnismöglichist. [0030] BeiBlock 26 wird der Wortsatz von hohem Interesse verwendet,um Dokumente in einem anderen Dokumentkorpus zu identifizieren,die dem Dokumentensatz bezüglichdes Kontexts ähnlichsind. Spezifischer betrachtet werden die Wörter in dem Wortsatz von hohemInteresse verwendet, um Dokumente zu clustern, die eventuell ähnlicheCharakteristika wie der Dokumentensatz teilen. Der durch den Wortsatzvon hohem Interesse aufgedeckte oder angezeigte „Kontext" liefert eventuell Codewörter oderWörter,die in dem Dokumentensatz auf eine neuartige Weise verwendet werden.Da der Wortsatz von hohem Interesse von Wörtern abgeleitet ist, die durchdie POS-Kennzeichnungen unterschiedlich gekennzeichnet wurden, unterscheidensich die ergebenden Wörterin dem Wortsatz von hohem Interesse auf bemerkenswerte Weise vonSchlüsselwörtern, diedurch herkömmlicheoder andere Schlüsselwortidentifikationsprozesseabgeleitet wurden. Bei diesen Prozessen werden die Schlüsselwörter inder Regel in ihrer korrekten statistischen POS-Verteilung und nicht einer,die von derselben abweicht, verwendet. Die herkömmlichen Prozesse sind besondersineffizient, wenn die Dokumente sequentiell sind (wie z. B. eineSerie von Elektronische-Post-Nachrichten oder Nachfolgenachrichtenoder Artikeln) und wenn die Dokumente absichtlich verwirrten Textenthalten. In diesen Fällenist der oben beschriebene und in den 1 und 2 gezeigte Prozeß wirksam,um Wörter,die auf eine neuartige Weise verwendet werden und eventuell vonInteresse sind, zu identifizieren und zu erkennen. [0031] Slangist ein weiterer Wortgebrauchstyp, der, wie bei Block 28 gezeigt,durch den Prozeß 10 erfaßt werdenkann. Slang ist ein Wort, das durchwegs als ein unterschiedlichesSprachteil als sein normaler, herkömmlicher Gebrauch verwendetwird. Die fortlaufende Übernahmevon Slang ist eventuell überDokumente in zeitlicher Reihenfolge identifizierbar und nachweisbar.Hinzu kommt, daß unbekannteWörtergetrennt von Wörtern,die auf eine neuartige Weise verwendet werden, dargestellt werdenkönnen. [0032] Jargonist ein weiterer Typ spezieller Wortgebrauchstyp, der, wie bei Block 30 gezeigt,durch den Prozeß 10 erfaßt werdenkann. Jargon ist eine spezielle Terminologie, die auf einem gegebenenGebiet verwendet wird. Jargon wird formeller verwendet und unterscheidetsich in der Regel vom Slang, der in informeller Sprache verwendetwird. Ähnlichwie Slang kann Jargon ein bekanntes Wort, das auf eine unterschiedlicheWeise bezüglichseines statistischen POS-Gebrauchsverwendet wird, oder ein unbekanntes Wort sein. [0033] UnterVerwendung des Prozesses 10 kann der Stil und/oder dasGenre von Dokumenten, charakterisiert durch einen neuartigen Wortgebrauch,erfaßtwerden, wie bei Block 32 gezeigt. Daher können dieseDokumente gemäß einerderartigen Bestimmung gruppiert werden. Insbesondere kann der absoluteund relative Gebrauch von Wörternauf eine neuartige Weise bezüglichihrer POS-Statistiken bestimmt werden. Zum Beispiel kann der Durchschnittswertder Differenzsumme Sd über den gesamten Dokumentensatzbestimmt werden. Der Durchschnittswert von Sd oder μ(Sd) ist hoch, wenn der Dokumentensatz vieleneuartige Wortverwendungen enthält. μ(Sd) kann nach Wortlänge, Wortneuheit und anderenStatistiken gewichtet werden und kann verwendet werden, um die Dokumentegemäß Stil undGenre zu clustern. Das Dokumentenclustern kann durch eine Anzahlvon Faktoren wie z. B. μ(Sd) und gewichtetes μ(Sd),Wortsatz von hohem Interesse, unbekannte Wörter und Verwendung derselben,gewichteter Wortsatz von hohem Interesse und/oder gewichtete unbekannteWörterund eine gewichtete Kombination aus einem oder mehreren der vorangegangenenFaktoren bestimmt werden. [0034] BeiBlock 34 bezieht sich ein Verknüpfungsnachverfolgen auf einzeitliches, geographisches und/oder kulturelles Identifizieren vonTrends bei einem neuartigen Wortgebrauch über ein Korpus hinweg. Derartige neuartigeWortgebrauchstrends zeigen eventuell eine Dokumentenwechselbeziehungund andere Zusammenhängean, die unter Verwendung anderer Mittel wie z. B. Schlüsselwortextraktionetc. weiter erkannt und verarbeitet werden können. [0035] Dievorhergehenden Anwendungen, die bei den Blöcken 26–34 gezeigtsind, sind bereitgestellte Beispiele, die von dem Erzeugungsprozeß von Wortsätzen vonhohem Interesse der vorliegenden Erfindung profitieren können. DieseWörtervon hohem Interesse könnenderartige Wörterwie Slang, Codewörter,Jargon und Wörter,die Stil und Genre des Dokuments anzeigen, umfassen. Die Möglichkeiten,wie diese Informationen verwendet werden können, um ein Textverständnis zuverbessern, sind zahlreich und verschieden. [0036] 3 ist ein Blockdiagrammeines Systemausführungsbeispielszum Identifizieren eines speziellen Wortgebrauchs gemäß der vorliegendenErfindung. Ein System 50 empfängt einen Dokumentensatz 52,der zumindest aus einem Dokument in elektronischer Form zusammengesetztist, und speichert den Dokumentensatz in einem Speicher 54.Der Speicher 54 ist durch einen Prozessor 56,der ferner mit einer Eingabevorrichtung 58 und einer Ausgabevorrichtung 60 gekoppeltist, gekoppelt und zugreifbar. Die Eingabevorrichtung 58 weistjegliche Vorrichtung auf, die betreibbar ist, um dem Prozessor 56 eineEingabe bereitzustellen, einschließlich Vorrichtungen, die durchBenutzer direkt gehandhabt werden können, wie z. B. einer Tastaturund einer Zeigevorrichtung. Die Ausgabevorrichtung 60 weistjegliche Vorrichtung auf, die betreibbar ist, um Informationen vondem Prozessor 56 in einer durch den Menschen wahrnehmbarenForm bereitzustellen, wie z. B. eine Anzeige, ein Drucker, ein Faksimilegerät, Lautsprecheretc. Der Prozessor 56 ist betreibbar, um computerlesbareBefehle auszuführen 62,die zumindest ein Ausführungsbeispielder Verfahren zum Identifizieren eines neuartigen Wortgebrauchscodieren. Wie oben beschrieben kann der sich ergebende Wortsatzbei einer Anzahl von Anwendungen verwendet werden, so daß Dokumente,die diese speziellen Wortgebräucheenthalten, identifiziert und/oder klassifiziert werden können, neueTrends füreinen Wortge brauch identifiziert und nachverfolgt werden können undein besseres Maschinentextverständnismöglichist.
权利要求:
Claims (21) [1] Verfahren (10) zum Identifizieren einespotentiellen neuartigen Wortgebrauchs in einem Dokument, das folgendeSchritte aufweist: Bestimmen (14) einer Sprachteilzuweisungfür jedesWort in dem Dokument unter Verwendung einer ersten Sprachteilkennzeichnung; Bestimmen(16) einer Sprachteilzuweisung für jedes Wort in dem Dokumentunter Verwendung einer zweiten Sprachteilkennzeichnung, die sichvon der ersten Sprachteilkennzeichnung unterscheidet; Vergleichender Sprachteilzuweisung der ersten und zweiten Sprachteilkennzeichnung;und Erzeugen (18) eines Differentialwortsatzes, derWörtermit einer unterschiedlichen Sprachteilzuweisung durch die ersteund zweite Sprachteilkennzeichnung aufweist, wobei die Wörter indem Differentialwortsatz Kandidaten für Wörter eines neuartigen Gebrauchssind. [2] Verfahren (10) gemäß Anspruch 1, das ferner einBestimmen (20) einer Gewichtung zu jedem Wort in dem Differentialwortsatzaufweist. [3] Verfahren (10) gemäß Anspruch 2, bei dem das Bestimmen(20) einer Gewichtung zu jedem Wort ein Bestimmen (40)einer Gewichtung ansprechend auf die Sprachteilzuweisung des Wortesdurch die erste Sprachteilkennzeichnung aufweist. [4] Verfahren (10) gemäß Anspruch 2 oder 3, bei demdas Bestimmen (20) einer Gewichtung zu jedem Wort ein Bestimmen(38) einer Gewichtung ansprechend auf eine Abweichung voneinem erwarteten Sprachteilgebrauch des Wortes aufweist. [5] Verfahren (10) gemäß einem der Ansprüche 2 bis4, bei dem das Bestimmen (20) einer Gewichtung zu jedemWort ein Bestimmen (42) einer Gewichtung ansprechend darauf,wie häufigdas Wort in dem Dokument auftritt, aufweist. [6] Verfahren (10) gemäß einem der Ansprüche 2 bis5, bei dem das Bestimmen (20) einer Gewichtung zu jedemWort ein Bestimmen (42) einer Gewichtung aufweist, ansprechenddarauf, wie häufigdas Wort in einem Dokumentensatz, der das Dokument aufweist, auftritt. [7] Verfahren (10) gemäß einem der Ansprüche 2 bis6, bei dem das Bestimmen (20) einer Gewichtung zu jedemWort ein Bestimmen (44) einer Gewichtung aufweist, indemwie folgt bestimmt wird: W = Sd·WPOS(erste POS-Kennzeichnung)·FR,wobeiSd eine Differenzsumme ist, die die Sprachteilgebrauchsabweichungvon einem erwarteten Sprachteilgebrauch des Wortes widerspiegelt,WPOS(erste POS-Kennzeichnung) eine Gewichtungauf der Basis der Sprachteilzuweisung für das durch die erste Sprachteilkennzeichnungbestimmte Wort ist und FR ein Verhältnis des Auftretens des Wortsin einem Dokumentensatz ist, der das Dokument aufweist, zu einemDokumentkorpus, auf dem die zweite Sprachteilkennzeichnung basiert. [8] Verfahren (10) gemäß einem der Ansprüche 2 bis7, das ferner ein Auswähleneines Teilsatzes von Wörternaus dem Differentialwortsatz ansprechend auf die für jedesWort bestimmte Gewichtung aufweist. [9] Computerlesbarer Artikel, der mit einem computerausführbarenProzeß codiertist, wobei der Prozeß folgendeSchritte aufweist: Zuweisen (14) einer ersten Sprachteilkennungzu Wörternin zumindest einem Dokument (52) gemäß einem ersten Sprachteilkennzeichnungsverfahren; Zuweisen(16) einer zweiten Sprachteilkennung für Wörter in dem zumindest einemDokument (52) gemäß einemzweiten Sprachteilkennzeichnungsverfahren, das vereinfachender istals das erste Sprachteilkennzeichnungsverfahren; Vergleichender ersten und zweiten Sprachteilkennung; und Erzeugen einesDifferentialwortsatzes, der Wörtermit einer unterschiedlichen ersten und zweiten Sprachteilkennungaufweist. [10] Artikel gemäß Anspruch9, der ferner ein Bestimmen (20) einer Gewichtung zu jedemWort in dem Differentialwortsatz aufweist. [11] Artikel gemäß Anspruch10, bei dem das Bestimmen (20) einer Gewichtung zu jedemWort ein Bestimmen einer Gewichtung ansprechend auf die erste Sprachteilkennungdes Wortes aufweist. [12] Artikel gemäß Anspruch10 oder 11, bei dem das Bestimmen (20) einer Gewichtungzu jedem Wort ein Bestimmen einer Gewichtung ansprechend auf eineAbweichung von einem erwarteten Sprachteilgebrauch des Wortes aufweist. [13] Artikel gemäß einemder Ansprüche10 bis 12, bei dem das Bestimmen (20) einer Gewichtungzu jedem Wort ein Bestimmen (42) einer Gewichtung ansprechenddarauf, wie häufigdas Wort in dem Dokument auftritt, aufweist. [14] Artikel gemäß einemder Ansprüche10 bis 13, bei dem das Bestimmen (20) einer Gewichtungzu jedem Wort ein Bestimmen (42) einer Gewichtung aufweist,ansprechend darauf, wie häufigdas Wort in einem Dokumentensatz, der das Dokument aufweist, auftritt. [15] Artikel gemäß einemder Ansprüche10 bis 14, bei dem das Bestimmen (20) einer Gewichtungzu jedem Wort ein Bestimmen (44) einer Gewichtung aufweist,indem wie folgt bestimmt wird: W = Sd·WPOS(erstes POS-Kennzeichnungsverfahren)·FR,wobeiSd eine Differenzsumme ist, die die Sprachteilgebrauchsabweichungvon einem erwarteten Sprachteilgebrauch des Wortes widerspiegelt,WPOS(erstes POS- Kennzeichnungsverfahren) eineGewichtung auf der Basis der ersten Sprachteilkennung für das Wortist und FR ein Verhältnisdes Auftretens des Worts in einem Dokumentensatz ist, der das Dokumentaufweist, zu einem Dokumentkorpus, auf dem das zweite Sprachteilkennzeichnungsverfahrenbasiert. [16] Artikel gemäß einemder Ansprüche10 bis 15, bei dem das Auswählenvon Wörterneines neuartigen Gebrauchs ein Auswählen von Wörtern aufweist, die ein vorbestimmtesGewichtungskriterium erfüllen. [17] Artikel gemäß einemder Ansprüche9 bis 16, der ferner ein Auswählenvon Wörterneines neuartigen Gebrauchs aus dem Differentialwortsatz aufweist. [18] System zum Identifizieren eines potentiellen neuartigenWortgebrauchs in einem Dokumentensatz, das folgende Merkmale aufweist: einenMikroprozessor (56); und eine Reihe von Computerbefehlen,die ein Verfahren aufweisen: Zuweisen (14) einer erstenSprachteilkennung zu Wörternin zumindest einem Dokument (52) gemäß einem ersten Sprachteilkennzeichnungsverfahren; Zuweisen(16) einer zweiten Sprachteilkennung für Wörter in zumindest einem Dokument(52) gemäß einem zweitenSprachteilkennzeichnungsverfahren, das vereinfachender istals das erste Sprachteilkennzeichnungsverfahren; Vergleichender ersten und zweiten Sprachteilkennung; und Erzeugen einesDifferentialwortsatzes, der Wörtermit einer unterschiedlichen ersten und zweiten Sprachteilkennungaufweist. [19] System gemäß Anspruch18, bei dem das Verfahren ferner ein Bestimmen einer Gewichtungzu jedem Wort in dem Differentialwortsatz aufweist. [20] System gemäß Anspruch18 oder 19, bei dem das Verfahren ferner ein Bestimmen (44)einer Gewichtung zu jedem Wort aufweist, indem folgendes bestimmtwird: W = Sd·WPOS(erstes POS-Kennzeichnungsverfahren)·FR,wobeiSd eine Differenzsumme ist, die die Sprachteilgebrauchsabweichungvon einem erwarteten Sprachteilgebrauch des Wortes widerspiegelt,WPOS(erstes POS- Kennzeichnungsverfahren) eineGewichtung auf der Basis der ersten Sprachteilkennung für das Wortist und FR ein Verhältnisdes Auftretens des Worts in einem Dokumentensatz ist, der das Dokumentaufweist, zu einem Dokumentkorpus, auf dem das zweite Sprachteilkennzeichnungsverfahrenbasiert. [21] System gemäß einemder Ansprüche18 bis 20, das ferner ein Auswählenvon Wörterneines neuartigen Gebrauchs, die ein vorbestimmtes Gewichtungskriteriumerfüllen,aus dem Differentialwortsatz aufweist.
类似技术:
公开号 | 公开日 | 专利标题 US9916309B2|2018-03-13|Method and apparatus for automatically summarizing the contents of electronic documents US8458198B1|2013-06-04|Document analysis and multi-word term detector Bergsma et al.2006|Bootstrapping path-based pronoun resolution US9002764B2|2015-04-07|Systems, methods, and software for hyperlinking names US6167370A|2000-12-26|Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object | structures Gupta et al.2012|A survey of text question answering techniques JP5169816B2|2013-03-27|質問回答装置、質問回答方法および質問回答用プログラム CN103336766B|2016-12-28|短文本垃圾识别以及建模方法和装置 JP5662961B2|2015-02-04|レビュー処理方法およびシステム US7536293B2|2009-05-19|Methods and systems for language translation US7627571B2|2009-12-01|Extraction of anchor explanatory text by mining repeated patterns Sharoff2006|Open-source corpora: Using the net to fish for linguistic data Florian et al.2003|Named entity recognition through classifier combination KR101005337B1|2011-01-04|웹 문서에서의 의견 추출 및 분석 장치 및 그 방법 US8412514B1|2013-04-02|Method and apparatus for compiling and querying a QA database US7359891B2|2008-04-15|Hot topic extraction apparatus and method, storage medium therefor Ekbal et al.2008|A web-based Bengali news corpus for named entity recognition CN100535898C|2009-09-02|问答式文献检索系统和方法 Cunningham1997|Information extraction-a user guide Shaalan et al.2009|NERA: Named entity recognition for Arabic US9256679B2|2016-02-09|Information search method and system, information provision method and system based on user's intention CA2397985C|2008-12-02|Apparatus and method for context-based highlighting of an electronic document Şeker et al.2012|Initial explorations on using CRFs for Turkish named entity recognition JP2017010514A|2017-01-12|検索エンジン及びその実現方法 US20100250598A1|2010-09-30|Graph based re-composition of document fragments for name entity recognition under exploitation of enterprise databases
同族专利:
公开号 | 公开日 US20040236566A1|2004-11-25| GB0409588D0|2004-06-02| US7269544B2|2007-09-11| GB2401972A|2004-11-24|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
法律状态:
2004-12-23| OP8| Request for examination as to paragraph 44 patent law| 2006-04-20| 8131| Rejection|
优先权:
[返回顶部]
申请号 | 申请日 | 专利标题 相关专利
Sulfonates, polymers, resist compositions and patterning process
Washing machine
Washing machine
Device for fixture finishing and tension adjusting of membrane
Structure for Equipping Band in a Plane Cathode Ray Tube
Process for preparation of 7 alpha-carboxyl 9, 11-epoxy steroids and intermediates useful therein an
国家/地区
|